摘要: 采用经典的向量空间模型对网页文本进行分类。由于传统特征项权重计算公式 TFIDF 在网页关键词计算和关键词类间区分度不高等问题的存在,本文将网页结构分成两个部分,含有标题、元数据、链接锚文件等的关键词部分和网页的正文部分,对关键词部分的权重进行了加强,而对网页正文部分采用改进的 IDF 进行计算,使关键词在类的区分度的效果上得到一定程度的提升,试验证明该方法是可行的。
中图分类号:
李中原;杨守文. 基于向量空间模型的网页特征权重计算改进[J]. 计算机与现代化, 2010, 1(6): 137-0139.
LI Zhong-yuan;YANG Shou-wen. Improvement of Weight of Web Page Features in Calculation Based on VSM[J]. Computer and Modernization, 2010, 1(6): 137-0139.